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摘要 : 表达 序列 标签 (expressed sequence tags ，ESTs ) 是 开发 微 卫 星 标 记 的 一 个 重要 的 资源 。 神 飞 乱 Wiaparvata lugens 
(Stil) EST 序列 的 公布 为 开发 EST-SSRs 提供 了 宝贵 的 数据 资源 ， 本 研究 利用 生物 信息 学 对 NCBI 公共 数据 库 中 的 
37 398 条 褐 飞 各 ESTs 序列 进行 EST-SSRs 特征 分 析 ， 得 到 全 长 为 7 619. 324 kb 的 无 元 余 EST 9 852 条 。 按 照 3 个 不 
同 的 查找 标准 在 这 些 序列 中 搜索 SSR。 查 找 结果 显示 : 褐 飞 剧 EST-SSRs 主要 重复 基 元 以 1 ~3 碱 基 为 主 ， 占 总 EST- 
SSR 的 95% 以 上 。 在 单 碱 基 重 复 基 元 中 ，A 休 是 占 优 势 的 重复 基 元 ， 在 二 相 重 复 类 型 中 ，AGXCT 重复 基 元 出 现 的 
频率 最 多 ， 而 AAG/ACTT 是 三 相 重复 中 占 绝对 优势 的 重复 基 元 。 在 褐 飞 各 EST-SSRs 中 未 查找 到 CC 重复 基 元 。 以 
100 bp 为 参照 ,在 3 种 查找 标准 下 含有 SSR 的 EST 序列 中 两 端 侧 吕 序 列 均 三 100 bp 的 序列 分 别 为 738，89 和 42 个 。 
通过 分 析 褐 飞 各 EST-SSRs 标记 可 以 为 褐 飞 乱 和 近 缘 种 的 SSR 标记 的 开发 提供 信息 ， 同 时 通过 分 析 褐 飞 乔 EST-SSRs 
的 分 布 频率 和 分 布 特征 可 以 为 昆虫 EST-SSRs 的 研究 提供 借鉴 和 人 参考 。 
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Analysis of microsatellite information in EST resource of Nilaparvata lIugens 


(Homoptera : Delphacidae) 

LIU Yu-Di*, HOU Mao-Lin ，” (1，State Key Laboratory for Biology of Plant Diseases and Insect Pests, 
Institute of Plant Protection, Chinese Academy of Agricultural Sciences, Beijing 100193, China; 2. Guangdong 
Provincial Public Laboratory on Wild Animal Conservation and Management, Guangzhou 510260, China) 
Abstract: Expressed sequence tags (ESTs) are important resources for development of new SSR markers. 
Im this study, 37 398 ESTs of Nilaparvata lugens (Stail ) were downloaded from NCBI and analyzed. After 
the pre-procession, 9 852 non-redundant ESTs with the total length about 7 619. 324 kb were obtained. The 
EST-SSRs were detected under three search qualifications. The search results indicated that the 1 — 3 repeat 
motifs were the major repeats among all the SSRs, which accounted for above 95% of all EST-SSRs. A/T 
was the most frequent motif in the mononucleotide. AG/CT and AAG/CTT were the major motifs in the 
dinucleotide and trinucleotide, respectively. The GC repeat motif was not found in the EST-SSRs of AN. 
lugens. When 100 bp was used as the comparison, the numbers of sequences with both flanking regions 
三 100 bp under three search qualifications were 738, 89, and 42, respectively. The analysis of EST-SSRs 
markers can provide the information for the SSR development of N. lugens and related species. 
Furthermore, the analysis of the distribution frequency and character of N. lugens EST-SSRs can provide 
help for the EST-SSRs study of insects. 
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微 卫 星 ( microsatellite ) 即 简单 重复 序列 (simple MacAvoy，2000) 。 根 据 组 成 单元 包含 的 碱 基数 目 
sequence repeats，SSR ) ， 又 称 短 串联 重复 序列 的 差异 ， 可 分 为 二 (di-)、 三 (tr-)、 四 (tetra-)、 
(short tandem repeats ，STR ) ， 是 指 以 1 ~6 个 碱 基 五 (penta-) 、 六 (Phexa-) 个 核 背 酸 为 基本 重复 单位 
为 基本 组 成 单元 的 串联 重复 序列 ( Chambers and (motif) 的 微 卫 星 ， 人 简称 为 二 相 、 三 相 、 四 相 、 五 
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相 、 六 相 重 复 微 卫星 (Schlatterer，1998 ; Chambers 
and MacAvoy, 2000) 。 与 其 他 分 子 标记 相 比 ， 微 卫 
星 在 基因 组 中 具有 较 高 的 丰 度 ， 突 变 率 很 高 (10“ 
~10““/ 代 ) 的 优点 。 另 外 ， 由 于 筛选 的 微 卫 星 位 
点 长 度 一 般 较 短 ， 容 易 进 行 PCR 扩 增 ， 对 模板 
DNA 的 质量 和 数量 要 求 不 高 ， 具 有 和 较 高 的 可 重复 
性 , 不 受 实验 时 间 和 地 点 的 影响 (Selkoe and 
Toonen ，2006 ) 。 因 此 微 卫 星 分 子 标记 是 目前 备 受 
遗传 学 家 青睐 的 分 子 标 记 之 一 。 

传统 开发 SSR 标记 的 方法 是 通过 文库 的 构建 、 
应 用 生物 素 探 针 杂交 的 方法 将 含有 SSR 殉 隆 进行 
电 选 、 将 阳性 克隆 测序 并 人 分析、 引物 设计 、PCR 
引物 检测 等 步 毕 ， 因 此 基因 组 文库 的 构建 和 筛选 
步 又 党 琐 ， 十 分 费时 费力 ， 而 且 要 求 的 技术 平台 
比较 高 (Zane et al.，2002 ) 。 在 改进 SSR 位 点 的 分 
离 方法 时 ， 避 免 文 库 的 构建 和 筛选 成 为 了 一 个 需 
求 。 由 于 不 同 物种 EST( expressed sequence tag， 表 
达 序 列 标签 ) 计划 的 实施 ， 目 前 公共 数据 库 中 的 
EST 数量 迅速 增加 。EST 资源 库 的 不 断 扩充 极 大 地 
方便 和 加 快 了 人 们 在 生命 科学 领域 的 研究 ， 也 为 
利用 这 些 数 据 来 开发 EST 分 子 标记 莫 定 了 基础 。 
利用 生物 信息 学 的 手段 从 庞大 的 EST 数据 中 直接 
查找 含有 SSR 的 EST， 利 用 EST 两 端的 保守 序列 
设计 PCR 引物 ， 它 操作 经 济 简便 ， 缩 短 了 SSR 的 
开发 周期 ， 市 省 了 开发 成 本 。 只 要 有 EST 测序 的 
物种 ， 在 此 物种 中 进行 EST-SSRs 的 查找 均 是 可 行 
的 。 由 于 EST-SSRs 标记 的 查找 利用 的 是 公共 序 
列 ， 省 去 了 SSR 引物 开发 过 程 中 的 克隆 和 测序 步 
又 ， 因 而 EST-SSRs 标记 的 开发 过 程 简单 ， 成 本 
低 。 与 传统 的 SSR 相 比 ，EST-SSRs 标记 还 有 很 多 
的 优点 ， 它 在 近 缘 种 之 间 有 较 高 的 通用 性 ， 租 选 
到 的 EST-SSRs 扩 增 稳定 性 好 (Varshney et al.， 
2005 ) 。 

目前 在 植物 中 已 做 了 大 量 的 EST-SSRs 开发 研 
究 和 应 用 ， 例 如 小 麦 、 水 稻 、 玉 米 、 大 豆 、 人 茶树 、 
日 池 、 大 麦 、 柑 权 和 棉花 等 ( 金 基 强 等 ，2006; 人 忻 
雅 等 ，2006; 王 长 彪 等 ，2006; 李 建 明 等 ，2007; 
陈 全 求 等 ，2008; 陈 相 艳 等 ，2009 ) ， 而 在 昆虫 中 
的 应 用 相对 较 少 。 宰 飞 恒 Nilaparvata lugens (Stal ) 
EST 序列 在 公共 数据 库 中 公布 对 开展 神 飞 恒 
EST-SSRs 的 研究 意义 较 大 。 截 止 到 2009 年 9 月 30 
日 ， 共 公布 了 37 398 条 EST 序列 。 本 研究 对 现 有 
的 褐 飞 乔 EST 中 的 SSR 信息 进行 了 全 面 分 析 ， 比 
较 了 不 同 查找 条 件 下 的 褐飞虱 EST-SSRs 的 发 生 频 


率 和 分 布 特点 ， 并 对 ESR-SSR 序列 的 可 用 性 进行 
了 统计 分 析 。 通 过 分 析 神 飞 乱 EST-SSRs 标记 一 方 
面 可 以 为 福 飞 乱 和 近 缘 种 的 SSR 标记 的 开发 提供 
信息 ， 居 一 方面 通过 分 析 神 飞 乱 EST-SSRs 的 分 布 
频率 和 分 布 特征 可 以 为 昆虫 EST-SSRs 的 研究 提供 
借鉴 和 参考 。 


1 材料 和 方法 


1.1 褐飞虱 EST 来源 

褐飞虱 EST 来 自 NCBI( 美 国 国家 生物 技术 信 
息 中 心 ) 数据 库 (http: //www. ncbi. nlm. nih. 
gov/ ) ， 共 计 37 398 条 ( Noda et al., 2008 ) 。 
1.2 EST 前 处 理 

采用 EST-trimmer pl 软件 (http: /Apgrc. ipk- 
gatersleben. de/misa/download/est-trimmer. pl ) 去 除 
长 度 小 于 100 bp 的 EST 序列 。 
1.3 聚 类 去 元 余 

前 处 理 后 的 ESTs 通过 软件 Cap3Win ( Huang 
and Madan ,1999 ) 进行 片段 重合 群 分 析 和 聚 类 。 拼 
接 时 设 定 的 初始 装配 参数 为 : 最 小 匹配 碱 基数 
(minmatch ) 为 30， 最 小 分 值 (minscore ) 为 30。 对 
错误 拼接 序列 设置 比较 高 的 装配 参数 再 次 进行 
接 , 判别 ， 共 进行 了 3 次 。 将 分 析 后 的 重合 群 
(contigs) 和 单一 序列 (singlets ) 合并 后 ， 采 用 EST- 
trimmer 软件 去 除 $ 端 或 3 端 S0 bp 的 polyT 或 
polyA 序列 。 
1.4 EST-SSR 筛选 

应 用 MISA.pl 软件 ( http: /pgrc.ipk- 
gatersleben. de/misa/ misa. html ) 对 聚 类 和 去 除 宛 余 序 
列 后 的 ESTs 进行 SSR 查找 。 分 3 个 标准 进行 查找 : 
查找 标准 1 (1/10,，2/6, 3/5, 4/5, 5/5,，6/5), 即 
单 核 苷 酸 重复 的 次 数 在 10 次 或 10 次 以 上 ， 二 核 车 
酸 重 复 的 次 数 在 6 次 或 6 次 以 上 ， 三 至 六 核 苷 酸 重 
复 的 次 数 在 5 次 或 5 次 以 上 ; 查找 标准 2 (1/15，2/ 
10,，3/8，4/8,，5/8,，6/8)， 即 单 核 革 酸 重复 的 次 数 
在 15 次 或 15 次 以 上 ， 二 核 背 酸 重复 的 次 数 在 10 次 
或 10 次 以 上 ,三 至 六 核 苷 酸 重复 的 次 数 在 8 次 或 8 
次 以 上 ; 查找 标准 3 (1/20,， 2/12, 3/10, 4/10, 5/ 
10，6/10) ， 即 单 核 音 酸 重复 的 次 数 在 20 次 或 20 次 
以 上 ， 二 核 苷 酸 重 复 的 次 数 在 12 次 或 12 次 以 上 ， 
三 至 六 核 车 酸 重复 的 次 数 在 10 次 或 10 次 以 上 。 对 
于 复合 微 卫 星 (compound microsatellite ) ， 查 找 标准 
为 间隔 (interrupted ) 等 于 10 或 小 于 10 碱 基 的 2 个 
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SSR 为 1 个 复合 微 卫星 。 
1.5 EST-SSR 可 用 性 分 析 

SSR 的 侧 辟 序 列 只 有 具有 足够 长 度 才能 进行 引 
物 设 计 ， 从 而 进一步 验证 其 可 用 性 和 多 态 性 。 本 
研究 以 100 bp 为 参照 ， 当 侧翼 序列 一 端 < 100 bp 
时 该 序列 即 认 为 是 缺乏 足够 的 侧枝 序列 长 度 ， 从 
而 认为 该 序列 是 不 可 用 的 ; 当 两 端的 侧 蛋 序列 均 
宇 100 bp 时 ， 即 有 相对 足够 长 的 侧 嗓 序列 时 ， 认 为 
该 序列 是 可 用 的 。 本 研究 通过 设计 程序 ， 对 含有 
SSR 的 EST 序列 进行 统计 计算 ,分 别 统计 侧翼 序 
列 <100 bp 和 三 100 bp 的 SSR 的 个 数 。 


2 结果 与 分 析 


2.1 褐飞虱 EST 中 出 现 SSR 的 频率 

褐 飞 乱 37 398 条 EST 序列 经 过 聚 类 拼接 处 理 
后 共 得 到 9 852 条 无 见 余 的 EST 序列 ， 包 括 重 合群 
( contigs ) 3 897 个 和 单一 序列 (singlets ) 5 955 个 。 
经 过 对 人 处理 后 9 852 条 无 多 余 的 EST 序列 按 不 同 的 
查找 标准 进行 搜索 。 

查找 标准 1: 共 检 出 含有 SSR 的 序列 分 别 为 
802 条 ， 发 生 频 率 ( 含 有 SSR 的 EST 数目 与 总 EST 
数目 的 比值 ) 为 8. 14% 。 其 中 ，690 条 含 单 个 SSR， 


112 条 含有 2 个 或 2 个 以 上 的 SSR。 共 检 出 995 个 
SSR， 占 无 见 余 EST 的 10. 09% 。 在 这 995 个 SSR 
中 ,完全 重复 SSR 为 948 个 ， 复 合 微 卫星 为 47 
个 。 从 分 布 情况 看 ， 福 飞 乱 EST 中 平均 每 7.98 kb 
就 出 现 1 个 SSR， 但 不 同 重 复 类 型 间 差 异 很 大 
( 表 1)。 

查找 标准 2: 共 检 出 含有 SSR 的 序列 分 别 为 
158 条 ， 发 生 频 率 为 1.60% 。 其 中 ，68 条 含 单个 
SSR，106 条 含有 2 个 或 2 个 以 上 的 SSR。 共 检 出 
174 个 SSR， 占 无 见 余 EST 的 1.77% 。 在 这 174 个 
SSR 中 ， 完 全 重复 SSR 为 165 个 ， 复 合 微 卫 星 为 9 
个 ( 表 1)。 

查找 标准 3: 共 检 出 含有 SSR 的 序列 分 别 为 
87 条 ， 发 生 频 率 为 0.88% 。 共 检 出 93 个 SSR， 占 
无 见 余 EST 的 0.96% 。 在 这 95 个 SSR 中 ， 完 全 重 
复 SSR 为 90 个， 复合 微 卫 星 为 5 个。 其 中 ，31 条 
含 单 个 SSR，64 条 含有 2 个 或 2 个 以 上 的 SSR 
( 表 1)。 

随 着 查找 标准 的 上 升 ， 不同 重复 类 型 的 SSR 
数量 随 之 下 降 ( 表 1)。 在 3 种 查找 方式 下 三 核 甘酸 
的 比例 均 最 高 ， 其 次 是 单 核 车 酸 和 二 核 革 酸 。 在 
查找 标准 为 2 和 3 时 没有 搜索 到 五 核 车 酸 重复 的 
SSR( 表 1)。 


表 1 褐飞虱 SSR 在 无 元 余 EST 中 出 现 的 频率 


Table 1 Occurrence of SSRs in non-redundant Nilaparvata Iugens ESTs 


SSR 数目 各 类 型 所 占 比例 (% ) 平均 距离 (kb) 
重复 基 元 Number of SSRs Proportion in all SSRs Average distance 
Repeat motf ”SOQ-l SO2 SQ-3 SO-l SQ2 SQ23 SO-l SO22 SQ23 
P C P CC P C P C P P C P C P C P C 
核 音 酸 
站 入 359 7 68 0 31 0 37.59 0.73 39.08 32. 63 0 21.22 1 088.47 112.05 —- 245.78 一 
Mononucleotide 
二 核 车 酸 
16S 14 21 1 16 1 17.28 1.47 12.07 0.57 16.84 1.05 46.18 $44.24 362.82 7 619.32 476.21 7 619.32 
Dinucleotide 
三 核 昔 酸 
357 23 69 7 40 4 37.38 2.41 39.66 4.02 42.11 14.74 21.34 331.27 110.42 1 088.47 190.48 1 904.83 
Trinucleotide 
四 核 甘酸 
和 20 2 6 1 2 0 2.09 0.21 3.45 0.57 2.11 0 380.97 3 809.66 1 269.897619.323809.66  - 
Tetranucleotide 
五 会 
恢 芋 酸 0 0 0 0 0.52 0 0 0 0 1523.86 - 一 一 一 一 
Pentanucleotide 
六 核 芭 酸 1] 0 1 0 0.21 0.10 0.57 1.05 0 3809.66 7 619.32 7 619.32 - 7619.32 一 
Hexanucleotide 


908 47 16 9 90 3 9.08 4% 9%983 
总 计 Total 955 174 95 100 100 


5.17 94.74 320 8.39 162.11 46.18 846.59 84.66 1 523.86 


100 


SQ-1 : 查找 标准 1 (Search qualification 1 ) ; SQ-2 : 查找 标准 2(Search qualification 2 ) ; SQ-3 : 查找 标准 3(Search qualification 3). 下 同 The same 
below. P: 完全 重复 SSR( Perfect SSR); C: 复合 SSR(Compound SSR). - : 未 搜索 到 (No SSR can be searched). 
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2.2 褐飞虱 EST-SSR 的 特性 

二 相 重 复 的 微 卫星 (图 1): 3 种 查找 方式 下 
AG/CT 是 出 现 频率 最 多 的 重复 基 元 。 在 查找 标准 1 
条 件 下 ，AT/AT 和 AC/GT 二 相 重 复 基 元 出 现 的 频 
率 相近 ， 而 在 查找 标准 2 和 3 条 件 下 ，AC/GT 重 
复 基 元 出 现 的 频率 高 于 AT/AT 重复 基 元 。 


CCG/CGG 为 查找 方式 1 中 出 现 频 率 最 低 的 基 元 ， 
为 1.85% 。 在 查找 标准 2 和 3 条 件 下 ， 均 缺失 
复 基 元 ACCZGGT 和 CCG/CGG ) 。 

神 飞 起 的 EST-SSRs 种 类 十 分 丰富 ， 一 至 六 核 

苷 酸 重 复 类 型 都 能 看 到 ， 但 各 种 类 型 出 现 的 频率 相 
很 大 ， 主 要 集中 在 一 至 三 核 苷 酸 重复 上 ( 表 2)。 


人 人、 


三 相 重 复 的 微 卫 星 ( 图 2): 3 种 查找 方式 下 在 查找 标准 1 条 件 下 ( 表 2) : 共 观 察 到 30 种 重复 


AAC/CTT 是 出 现 频率 最 高 的 重复 基 元 。 
AAT/ATT 在 3 种 查找 方式 下 出 现 的 频率 相近 。 种， 三 、 四 、 五 、 六 核 背 本 
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Fig. 2 Distribution frequency of the trinucleotide repeat type under different search 


qualifications in UniGene sequences of Nilaparvata lugens 


基 元 ， 单 核 车 酸 有 2 种 ， 二 核 车 酸 重 复 基 元 有 3 
复 基 元 分 别 有 10, 8， 
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5 和 2( 表 2)。 一 至 三 核 芽 酸 重 复 占 总 EST-SSR 的 
96. 86% ,其 中 ,三 核 背 酸 重复 最 为 常见， 占 总 
SSR 的 39.79% ， 二 核 背 酸 重 复 占 总 SSR 的 
18. 74% ， 而 四 至 六 核 苷 酸 重 复 所 占 比 例 较 小 ， 仅 
占 总 SSR 的 3. 14% ; 在 查找 标准 2 和 3 条件 下 ， 
各 重复 基 元 的 数量 都 急剧 下 降 ， 其 中 五 相 重 复 基 元 
消失 。 在 查找 条 件 2 下 ( 表 2): 共 观 察 到 18 种 重 
复 基 元 ， 单 核 背 酸 有 1 种， 二 核 背 酸 重 复 基 元 有 3 
种 ， 三 、 四 、 五 、 六 核 背 酸 重 复 基 元 分 别 有 8，5， 
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0 和 1。 一 至 三 核 背 酸 重 复 占 总 EST-SSR 的 
95. 40% ， 其 中 ,3 三 核 背 酸 重 复 最 为 种 见 ， 占 总 
SSR 的 43. 68% ; 在 查找 标准 3 条 件 下 ( 表 2): 共 
观察 到 14 种 重复 基 元 ， 单 核 苷 酸 有 1 种 ， 二 核 苷 
酸 重复 基 元 有 3 和 种， 三、 四、 五 、 六 核 苷 酸 重 复 基 
元 分 别 有 7, 2, 0 和 1。 一 至 三 核 苷 酸 重 复 占 总 
EST-SSR 的 96. 84% ， 三 核 苷 酸 重 复 也 是 最 为 常 
见 ， 占 总 SSR 的 46. 32% 。 





表 2 9 852 条 褐飞虱 无 匈 余 序列 中 不 同 微 卫 星 的 出 现 情况 
Table 2 Occurrence of different SSRs in 9 852 non-reduntant ESTs of Nilaparvata lugens 


重复 基 元 重复 次 数 Number of repeats 合计 
Repeat motif 5 6 7 8 9 10 11 12 13 14 13 三 10 Total 
A/T 一 一 一 一 一 148 54 34 17 8 9 39 329 
一 一 一 一 一 一 一 9 39 68 
一 一 一 一 一 一 31 31 
C/G 一 一 一 一 一 15 8 8 5 ] 0 0 37 
AC/GT 一 27 5 5 3 2 0 0 2 0 0 5 49 
一 一 2 0 0 2 0 0 5 9 
一 一 0 2 0 0 S 7 
AG/CT 一 30 20 4 8 2 1 2 0 3 1 2 79 
一 一 2 7 2 0 3 7 2 77 
一 一 2 0 3 1 2 8 
ATAAT 一 23 9 13 2 0 0 0 ] 0 0 ] 31 
一 一 0 0 0 7 0 0 7 2 
一 一 0 1 0 0 1 2 
AAC/GTT 11 9 6 3 2 0 2 0 0 0 0 2 35 
3 2 0 2 0 0 0 0 2 9 
0 2 0 0 0 0 2 4 
AAG/CTT 39 17 10 6 3 4 2 1 2 0 3 13 102 
6 3 4 2 7 2 0 3 73 30 
4 2 1 2 0 S 13 27 
AAT/AATT 42 9 6 6 0 0 2 2 0 1 2 1 71 
6 0 0 2 2 0 7 2 7 14 
0 2 2 0 1 2 1 8 
ACC/GGT 7 3 ] 0 0 0 0 0 0 0 0 0 11 
ACG/CTG 3 6 4 ] 0 0 0 0 0 ] 0 0 15 
7 0 0 0 0 0 7 0 0 2 
0 0 0 0 1 0 0 1 
ACT/ATG 24 6 6 4 ] 0 0 0 ] 0 0 0 42 
4 7 0 0 0 7 0 0 0 6 
0 0 0 1 0 0 0 1 
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续 表 2 Table 2 continued 


重复 基 元 
Repeat motif 


AGC/CGT 


AGG/CCT 


AGT/ATC 


CCG/CGG 
AAAG/CTTT 


AAAT/AATTT 


AACT/ATTG 


AAGC/CGTT 


AATC/AGTT 


AATG/ACTT 


ACTC/AGTG 


AGAT/AATCT 


AAAGT/AATTTC 
AAATC/AGTTT 
AATAG/AATCTT 
AATGG/ACCTT 
ACGTC/AGTGC 


AAAAAG/CTTTTT 


AAGGTC/AGTTCC 


13 


24 


12 


1 





0 


0 





0 
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0 


重复 次 数 Number of repeats 


10 


0 


0 


0 


11 


0 


0 


0 


12 


0 


1 


0 


13 


0 


0 


14 


0 


0 


15 


0 


0 


宇 16 


0 


0 


53 卷 


合计 


Total 


29 


40 


1 


1 


查找 标准 1 对 应 的 是 不 同 重复 基 元 后 同一 行 的 数字 ; 查找 标准 2 对 应 斜体 数字 ; 查找 标准 3 对 应 粗 体 数 字 。The numbers after the different 


repeat motifs on the same line indicate the search results using SQ-1, the italic numbers indicate the search results using SQ-2, while the bold numbers 


indicate the search results using SQ-3. 
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2.3 ”EST-SSR 可 用 性 分 析 

本 人 研究 以 100 bp 为 参照 ， 对 含有 SSR 的 EST 
序列 进行 统计 计算 。 分 别 统计 单 侧 愤 序列 < 100 
bp， 两 侧翼 序 列 均 < 100 bp， 两 侧记 序列 均 三 100 
bp 前 提 下 在 3 种 查找 标准 条 件 下 的 EST-SSRs 序列 
个 数 。 统 计 结 果 显 示 : 单 侧 序列 侧 轰 列 < 100 bp 
的 序列 在 查找 标准 1 下 达到 了 355 个 ， 查 找 标 准 2 
和 3 下 分 别 为 86 和 53 个 。 随 着 查找 标准 的 提高 ， 


单 侧 序列 侧 囊 列 < 100 bp 的 序列 所 占 的 比例 上 升 
( 表 3) 。 两 侧 必 序列 均 <100 bp 的 序列 在 3 种 查找 
标准 下 分 别 为 43 ，7 和 4。 两 端 侧 嗓 序列 均 ==100 
bp 的 序列 统计 结果 显示 在 3 种 查找 标准 下 的 分 别 
为 738，89 和 42 个 ( 表 3); 随 着 查找 标准 的 提高 
所 占 的 比例 下 降 ， 在 查找 标准 1 条 件 下 ， 所 占 得 比 
例 为 77.28% ， 在 查找 标准 2 和 3 条 件 下 所 占 的 比 
例 分 别 为 51. 15% 和 44. 21% ( 表 3) 。 


表 3 不 同 查找 标准 下 不 同 侧 要 序列 长 度 的 褐飞虱 EST-SSR 序列 统计 
Table 3 Statistics of EST-SSR sequences with different lengths of flanking regions under different search qualifications 


单 侧翼 序列 < 100 bp 
Single flanking region <100 bp Both flanking regions <100 bp Both flanking regions 三 100 bp 


微 卫 星 重 复 基 元 


Microsatellite repeat motif 


SQ-1 SQ2 
完全 重复 单 相 微 卫 星 Mononucleotide microsatellite 146 36 
完全 重复 二 相 微 卫星 Dinucleotide microsatellite 66 8 
完全 重复 三 相 微 卫星 Trinucleotide microsatellite 120 34 
完全 重复 四 相 微 卫星 Tetranucleotide microsatellite 5 4 
完全 重复 五 相 微 卫星 Pentanucleotide microsatellite 1 0 
完全 重复 六 相 微 卫星 Hexanucleotide microsatellite 0 1 
复合 微 卫 星 Compound microsatellite 17 3 
总 计 Total 355 86 
各 类 型 所 占 比 例 Proportion in all SSRs(% ) 37. 17 49. 43 


本 研究 中 通过 对 褐 飞 乱 37 398 条 EST 序列 经 
过 聚 类 拼接 人 处理 后 共 得 到 9 852 条 无 匈 余 的 EST 序 
列 ， 对 7 619. 324 kb 的 序列 按 不 同 的 查找 标准 进行 
了 SSR 的 查找 。 不 同 的 查找 条 件 下 ,褐飞虱 EST- 
SSRs 中 三 相 重 复 的 微 卫 星 出 现 的 频率 最 高 ， 这 与 
许多 的 禾 本 科 植 物 中 的 EST-SSRs( Varshney ，2002 ) 
以 及 曼 氏 血吸虫 的 EST-SSRs 分 布 相似 ( 唐 远 菊 等 ， 
2007) ， 而 与 赤 拟 谷 盗 ( 张 琳 琳 等 ，2008 ) 和 蜜蜂 
(李斌 等 ，2004) 的 EST-SSRs 分 布 不 同 。 张 琳 琳 等 
(2008 ) 的 研究 发 现 赤 拟 谷 盗 EST 中 单 碱 基 重 复 序 
列 占 主导 地 位 ， 其 次 是 六 碱 基 重 复 序 列 。 李 斌 等 
(2004 ) 的 研究 发 现 蜜蜂 EST 中 微 卫星 六 碱 基 重复 
序列 占 主导 地 位 ， 其 次 是 二 碱 基 重复 序列 。 因 此 微 
卫星 类 型 在 不 同 物 种 间 分 布 存 在 差异 。 

褐飞虱 EST-SSRs 主要 重复 基 元 以 1 ~3 碱 基 为 
主 ， 占 总 EST-SSR 的 95% 以 上 。 在 单 碱 基 重 复 基 


两 侧 融 序列 均 < 100 bp 两 侧 距 序列 均 二 100 bp 


SQ3 SQ-1 SQ2 SQ3 SQ-1 SQ2 SQ3 


21 15 2 2 259 35 12 
8 7 1 1 137 13 8 
18 20 3 0 291 33 19 
3 1 1 1 16 2 0 
0 0 0 0 4 0 0 
1 0 0 0 1 0 0 
2 0 0 0 30 6 3 
33 43 7 4 738 89 42 


33. 79 4. 30 4. 02 4. 21 77.28 31.13 44.21 


元 中 ，A/AT 是 占 优势 的 重复 基 元 ， 这 与 花生 、 大 豆 
和 油菜 中 的 单 重复 基 元 以 AMT 为 主 相 似 ( 李 小 白 
等 , 2007; 柳 展 基 等 ，2008; 陈 相 艳 等 ，2009 ) 。 
在 二 相 重 复 类 型 中 ，AG/CT 重复 基 元 出 现 的 频率 
最 多 ， 与 报道 的 油菜 ( 占 二 相 重 复 的 84. 04% ) 、 花 
生 ( 占 总 SSR 的 23.44% ) 和 大 豆 ( 占 总 SSR 的 
23. 46% ) 相似 。 但 与 曼 氏 血吸虫 (二 相 重复 以 AC/ 
TG 为 主 ， 占 二 相 重 复 的 49% ; 唐 远 菊 等 ，2007 ) 
和 赤 拟 谷 盗 中 (CA), 是 二 相 重 复 中 出 现 频率 最 高 
的 重复 基 元 ( 张 琳 琳 等 ，2008 ) 的 二 相 重 复 主 要 基 
元 不 同 。 三 相 重 复 中 ，AAG/CTT 重复 基 元 占 绝 对 
优势 ， 与 报道 的 油菜 ( 占 三 相 重复 的 33.71% )、 花 
生 ( 占 总 SSR 的 15.51% ) 和 大 豆 相 似 ( 占 总 SSR 的 
11.03% )。 但 与 曼 氏 血吸虫 (三 相 重复 以 AATATTA 
为 主 ， 占 三 相 重 复 的 31% ; 唐 远 菊 等 ，2007 ) 和 赤 
拟 谷 盗 【( CTA), 是 三 相 重 复 中 出 现 频率 最 高 的 重 
复 基 元 ; 张 琳 琳 等 ，2008j 的 三 相 主 要 重复 基 元 
不 同 。 在 褐飞虱 EST-SSRs 中 未 查找 到 GC 重复 基 
元 ，GC 重复 基 元 在 多 数 植 物 中 也 很 难 见 到 ( Gao et 
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al., 2003 ) ， 同 时 在 受 氏 血吸虫 ( 唐 远 菊 等 ，2007 ) 
和 赤 拟 合 盗 中 ( 张 琳 琳 等 ，2008) GC 重复 基 元 仅 以 
非常 低 的 频率 出 现 。 

通过 采用 不 同 的 查找 标准 对 褐飞虱 EST-SSRs 
进行 查找 ， 研 究 发 现 随 春 查找 标准 的 提高 ， 即 将 不 
同类 型 的 重复 基 元 的 重复 数 提高 ， 不 同 重复 类 型 的 
SSR 随 着 查找 标准 的 上 升 数量 急剧 下 降 。 同 时 褐 飞 
起 EST-SSRs 在 不 同 的 查找 标准 下 的 分 布 频率 也 不 
相同 。 由 于 微 卫 星 的 定义 不 同 ， 也 就 是 设 定 的 查找 
标准 不 一 致 ， 不 同 物种 中 EST-SSRs 出 现 的 频率 和 
分 布 特征 出 现 大 的 差异 。La Rota 等 (2005 ) 通过 设 
定 不 同 的 SSR 长 度 ， 人 研究 水 稻 、 大 麦 和 黑帮 EST- 
SSRs 的 分 布 频率 及 特点 的 变化 情况 ， 当 把 水 稻 最 
小 SSR 长 度 标 准 由 12 bp 增加 到 30 bp 时 ，EST- 
SSRs 的 频率 从 50% 减少 到 1% ， 同 时 二 核 苷 酸 重 
复 的 数量 变 得 与 三 核 并 酸 重 复 基 本 接近 ， 重 复 基 元 
的 主导 类 型 也 由 CCG 变 为 AG 重复 。 因 此 ， 在 进 
行 物种 间 特 定 EST-SSRs 频率 和 分 布 特征 比较 时 ， 
只 有 在 相同 或 相似 的 查找 参数 条 件 下 得 到 的 结果 才 
具有 可 比 性 。 

含有 SSR 的 序列 是 否 具备 可 用 性 的 一 个 首要 
的 前 提 是 该 序列 要 具备 足够 长 的 侧 中 序列 ， 从 而 才 
能 对 其 进行 引物 设计 和 下 一 步 的 检验 和 验证 。 本 人 研 
究 首 次 通过 对 含有 SSR 的 EST 序列 进行 侧 中 序列 
的 长 度 统计 分 析 ， 从 而 验证 其 可 用 性 。 统 计 结 果 分 
析 表 明 两 端 侧 翼 序 列 均 三 100 bp 的 序列 随 着 查找 
标准 的 提高 所 占 的 比例 下 降 ， 最 高 的 比例 仅 为 
77.28% 。 因 此 在 进行 ESR-SSR PCR 引物 设计 时 ， 
首先 要 统计 分 析出 两 侧 疲 序 列 均 具有 足够 长 度 的 序 
列 ， 然 后 对 这 些 序列 进行 下 一 步 的 引物 设计 等 实 
验 ， 从 而 避免 时 间 和 精力 上 的 浪费 。 对 于 从 EST 
中 查找 SSR 的 研究 工作 来 讲 ， 在 进行 SSR 引物 设 
计 之 前 ， 选 出 具有 足够 侧 踊 长 度 的 序列 是 必须 和 必 
要 的 。 本 人 研究 的 统计 分 析 能 为 其 他 物种 的 相关 人 研究 
提供 借鉴 和 参考 。 

尽管 EST-SSRs 有 很 多 的 优越 性 ， 但 它 上 自身 也 
存在 着 痊 端 。 由 于 EST 是 长 约 150 ~500 bp 的 基因 
表达 序列 片段 ， 因 此 与 传统 的 SSR 标记 相 比 较 ， 
EST-SSRs 标记 的 多 态 性 比 来 目 于 基因 组 的 SSR 的 
多 态 性 低 。 这 也 是 EST-SSRs 的 在 实际 应 用 中 的 一 
大 缺陷 。Eujayl 等 (2002) 研究 发 现在 小 麦 中 ，EST- 
SSRs 的 多 态 性 低 于 基因 组 SSRs， 仅 为 253% ,在 大 
麦 中 ， 来自 于 3'-UTR 的 EST-SSR 的 多 态 性 比 目 于 
5'-UTR 的 EST-SSRs 的 多 态 性 高 。 正 是 由 于 EST- 


SSRs 的 多 态 性 低 ， 因 此 需要 对 大 量 的 位 点 进行 引 
物 设 计 并 验证 各 目的 多 态 性 以 便 找 到 足够 的 多 态 位 
点 。 微 卫星 以 逐步 突变 模型 ( stepwise mutation 
model，SMM ) 为 主 进 行 突 变 ( Ohta and Kimura， 
1973) ， 因 此 只 有 重复 基 元 的 重复 数 足够 多 ， 找 到 
足够 数量 的 多 态 位 点 才 更 有 可 能 性 。 本 研究 通过 列 
出 不 同 查 找 方式 下 EST-SSRs 的 分 布 特征 和 频率 ， 
目的 是 比较 不 同 的 查找 标准 下 得 到 的 EST-SSRs 数 
量 差 异 。 因 此 在 实际 应 用 中 ， 应 根据 研究 工作 的 实 
际 需要 ， 按 照 严 格 的 条 件 对 EST-SSRs 进行 科 选 ， 
从 而 避免 过 多 精力 和 财力 的 浪费 。 

总 之 ,尽管 EST-SSRs 存在 一 些 不 足 ， 但 随 着 
EST 计划 开展 和 EST 数据 资源 将 不 断 丰 富 ，EST- 
SSRs 标记 的 建立 对 于 加 速 物种 资源 的 开发 利用 、 
遗传 资源 评价 、 物 种 间 比 较 作 图 、 绘 制 遗 传 图 谱 、 
阐明 物种 起 源 和 人 工 选 择 的 历史 过 程 等 研究 都 具有 
重要 的 意义 。 
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